ارائه یک روش جدید برای بررسی میزان شباهت اسناد متنی

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده برق و کامپیوتر
نویسنده نسرین ملکوتی
استاد راهنما علی حمزه
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1391

چکیده

در سال های اخیر با افزایش حجم اطلاعات و داده های متنی، مشکلات جدیدی برای کسانی که حوزه فعالیتشان در زمینه کار با داده بود به وجود آمد. بنابراین تحقیقات بسیاری در زمینه مدل کردن اطلاعات و استخراج اطلاعات مفید از آن ها به عمل آمد. کاربران نیازمند ابزارهایی بودند تا با استفاده از آن ها به راحتی بتوانند اطلاعات مفید را از داده های موجود استخراج و استفاده کنند. بدین منظور مباحث بسیاری در زمینه متن کاوی و بررسی شباهت بین متون مطرح شد. برای مثال روش فضای برداری به طور گسترده ای در باب موضوع شباهت سنجی بین اسناد متنی سخن به عمل آورده است و مدل های مختلفی از معیار شباهت سنجی را معرفی کرده است. با این وجود در بسیاری مدل های شباهت سنجی به وجود کلمات مشترک بین اسناد متنی توجه کمتری شده است و این در حالی است که وجود کلمات مشترک بین اسناد، باعث ایجاد ابهام در روند شباهت سنجی اسناد شده و کاربران را از هدف اصلی منحرف می کنند. در این پایان نامه سعی شده است یک روش برای بررسی میزان شباهت دو سند ارائه شود که با در نظر گرفتن تأثیر کلمات مشترک در بین اسناد و حذف هم پوشانی موجود بین اسناد متنی تخمین واقعی تر از میزان شباهت اسناد را به دست آورد و از این میزان شباهت برای خوشه بندی سندهای متنی استفاده شده است. این مدل شامل یک قسمت انتخاب ویژگی است که کلمات کلیدی واقع در متن را استخراج کرده، سپس با استفاده از تجزیه کننده های متنی درخت های تجزیه مربوط به سند های متنی را به دست آورده و با کمک وزن کلمات کلیدی بدست آمده از مرحله قبل، میزان شباهت بین درختان را تخمین می زند. برای بررسی میزان شباهت بین درختان از الگوریتم بدست آوردن تعداد زیر درختان مشابه در متن استفاده شده است. سندهای متنی به دلیل شامل بودن تعداد زیادی کلمات مشترک دارای هم پوشانی بسیاری هستند. وجود کلمات مشترک بین سندهای متنی ، از جمله مشکلات بررّسی دقیق میزان شباهت متن ها است که در صورتی که سیستم شباهت سنجی انتخاب ویژگی صحیحی از این متون به عمل آورد، قادر خواهد بود تا حدی، بر مشکل وجود هم پوشانی فائق آید. علاوه بر این کار کردن با متن و بدست آوردن میزان شباهت کاری زمان بر است، بنابراین استخراج مفهوم اصلی که از متن برداشت می شود از درجه اهمیت بسیاری برخوردار است.در این پایان نامه با ارائه روشی جدید برای استخراج کلمات کلیدی و با اهمیت در متن میزان شباهت بین سندهای متنی محاسبه می شود. در انتها با استفاده از الگوریتم های خوشه بندی از جمله الگوریتم خوشه بندی سلسله مراتبی و k خوشه بندی نزدیک ترین همسایه (knn)گروه بندی سندهای متنی انجام شده است. نتایج آزمایشگاهی و نمودارهای مقایسه ای به صورت واضح نشان می دهند که روش پیشنهاد شده از عملکرد بالاتری نسبت به روش های ارائه شده مشابه دارد.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ارائه رویکردی برای مدیریت و سازمان‌دهی اسناد متنی با استفاده از تجزیه‌وتحلیل هوشمند متن

Regarding the fact that stored data occupies a large space in organizations and retention systems and information management that has been resulted in gigantic data warehouses, the need for extracting an appropriate model is felt increasingly. Text mining is one of the most significant methods for extracting a useful and appropriate model that helps organizations in achieving their goals throug...

متن کامل

بهبود مسئله شباهت چندگانه با استفاده از الگوریتم وراثتی و کاربرد آن در شباهت اسناد متنی

در این پایان نامه ابتدا برخی از تعاریف و ویژگی های کمیت سنج های شباهت، بین دو شی و همچنین بین سه یا تعداد بیشتری از اشیا مرور می شود. از آنجا که روش های پیشین برای مسئله شباهت n تایی دارای پیچیدگی زمانی زیاد بوده و محاسبه آن در زمان معقول امکان پذیر نمی-باشد، لذا با استفاده از الگوریتم های وراثتی روشی معرفی می گردد که پیچیدگی مسئله را کاهش می دهد و یافتن جواب بهینه را برای مجموعه داده های بزرگ ...

ارائه روشی جدید برای تعیین شباهت اعداد فازی با استفاده از روش تاپسیس و کاربرد آن در آنالیز ریسک فازی

Caused by fuzzy risk analysis importance and fuzzy numbers’ similarity usage in this field, generating an appropriate method for finding the most similar fuzzy number by desired fuzzy number is obtained a significant importance. For receiving this goal, different approaches are made for determination of fuzzy similarity amount. In this paper, first a new similarity method between generalized tr...

متن کامل

ارائه یک روش جدید برای ارزیابی و انتخاب سبد پروژه های توسعه محصول جدید

تمایز از طریق توسعه محصول جدید یکی از موثرترین راه ها برای کسب موفقیت است اما با توجه نرخ شکستاین پروژه ها نمیتوان تنها با اتکا به یک پروژه توسعه محصول به موفقیت شرکت امید داشت. بنابراین باید سبدیاز پروژه های توسعه محصول جدید را انتخاب نمود. در این تحقیق با استفاده از مطالعات کتابخانه ای و نظرسنجی از خبرگان نخست 3۲ معیار برای ارزیابی پروژه های توسعه محصول جدید در حوزه محصولات یکبارمصرف بهداشتی ...

متن کامل

یک چارچوب جدید آشکارسازی و تشخیص لوگو در تصاویر متنی

آشکارسازی و تشخیص لوگو یک بخش اساسی در یک سیستم خودکارسازی اداری جهت بایگانی و بازیابی تصاویر متنی می‌باشد. در این مقاله، ما یک چارچوب جدید آشکارسازی و تشخیص لوگو مبتنی بر یک استراتژی ناحیه‌بندی و طبقه‌بندی پشت سر هم در تصاویر متنی پیشنهاد می‌کنیم. در این چارچوب، با استفاده از یک الگوریتم ناحیه‌بندی دو مرحله‌ای (شامل الگوریتمهای ناحیه‌بندی مبتنی بر تبدیل ویولت و آستانه‌گذاری) و طبقه‌بندی سلسله ...

متن کامل

ارائه یک روش جدید برای تخمین مقادیر گمشده در مجموعه داده

اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز ت...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده برق و کامپیوتر

کلمات کلیدی

شباهت دو سند انتخاب ویژگی خوشه بندی خوشه¬بندی سلسله مراتبی خوشه بندی k نزدیکترین همسایه

میزبانی شده توسط پلتفرم ابری doprax.com